Simpsonin paradoksi

Simpsonin paradoksi on tilastotieteessä esiintyvä paradoksi. Kyseinen paradoksi syntyy, kun kahden muuttujan välinen korrelaatio muuttuu päinvastaiseksi otettaessa huomioon jokin kolmas muuttuja, joka korreloi molempien muuttujien kanssa. Esimerkiksi, jos peruskoululaisille tehtäisiin kaikille sama testi, voitaisiin huomata, että tupakoivat pärjäävät paremmin kuin sellaiset, jotka eivät tupakoi. Jos kuitenkin tarkasteluun lisätään testattavien ikä ja tutkitaan tupakoinnin vaikutusta ikäryhmien sisällä, tulos kääntyy päinvastaiseksi.

Simpsonin paradoksin jatkuva versio. Tässä on positiivinen korrelaatio (trendi) sinisen ja punaisen ryhmän sisällä erikseen, mutta negatiivinen trendi niiden välillä (ryhmät yhdessä). Tämä on merkitty kuvaan mustalla katkoviivalla.

Edward H. Simpson esitteli tämän ilmiön artikkelissaan vuonna 1951.[1] mutta Karl Pearson, et al. vuonna 1899[2] ja Udny Yule vuonna 1903,[3] ovat maininneet samankaltaisesta ilmiöstä aiemminkin. Nimen Simpsonin paradoksi esitteli Colin R.Blyth vuonna 1972.[4]

  1. Simpson, Edward H.: The Interpretation of Interaction in Contingency Tables. Journal of the Royal Statistical Society, Ser. B, 1951, 13. vsk, s. 238–241.
  2. Pearson, Karl; Lee, A.; Bramley-Moore, L.: Genetic (reproductive) selection: Inheritance of fertility in man. Philosophical Translations of the Royal Statistical Society, Ser. A, 1899, 173. vsk, s. 534–539.
  3. G. U. Yule: Notes on the Theory of Association of Attributes in Statistics. Biometrika, 1903, 2. vsk, nro 2, s. 121–134. doi:10.1093/biomet/2.2.121
  4. Colin R. Blyth: On Simpson's Paradox and the Sure-Thing Principle. Journal of the American Statistical Association, 1972, 67. vsk, nro 338, s. 364–366. doi:10.2307/2284382 JSTOR:2284382

Developed by StudentB